pandas.read

您所在的位置:网站首页 read_csv dtype decimal pandas.read

pandas.read

2023-08-25 03:36| 来源: 网络整理| 查看: 265

pandas.read_csv 接口用于读取 CSV 格式数据文件,由于它使用非常频繁,功能强大参数众多,所以在这里专门做详细介绍, 我们在使用过程中可以查阅。

读 Excel 文件等方法会有很多相同的参数,用法基本一致。

语法

它的语法如下:

pd.read_csv(filepath_or_buffer: Union[str, pathlib.Path, IO[~AnyStr]], sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression='infer', thousands=None, decimal: str = '.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, dialect=None, error_bad_lines=True, warn_bad_lines=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None) 参数 文件 filepath_or_buffer

这是一个默认参数据,没有参数名,不能为空。

可以传文件路径:

# filepath_or_bufferstr, path object or file-like object # 本地相对路径: pd.read_csv('data/data.csv') # 注意目录层级 pd.read_csv('data.csv') # 如果文件与代码文件在同目录下 pd.read_csv('data/my/my.data') # CSV 文件扩展名不一定是 csv # 本地绝对路径: pd.read_csv('/user/gairuo/data/data.csv') # 使用网址 url pd.read_csv('https://www.gairuo.com/file/data/dataset/GDP-China.csv')

需要注意的是,mac 和 windows 的路径写法不一样,上例是 mac 写法,windows 需要换成类似 data\data.csv 及 'E: \data\data.csv'

可以传数据字符串,即 csv 中的数据字符,以字符串直接传入

from io import StringIO data = ('col1,col2,col3\n' 'a,b,1\n' 'a,b,2\n' 'c,d,3') pd.read_csv(StringIO(data))

StringIO

from io import StringIO pd.read_csv(StringIO(data), dtype=object)

也可以传入字节数据:

from io import BytesIO data = (b'word,length\n' b'Tr\xc3\xa4umen,7\n' b'Gr\xc3\xbc\xc3\x9fe,5') pd.read_csv(BytesIO(data))

注:字节数据经常会放在缓冲中来传递。

buf = BytesIO() # buf 可认为一个存储位置来使用 buf.getbuffer()

也可以用 read() 打开的文件再传递,不过几乎没人这么做。

分隔符 sep

字符型,每行数据内容分隔符号,默认是 , 逗号,另外常见的还有 tab 符 \t,空格等,根据数据实际的情况传值。

# str, default ‘,’ # 数据分隔转化是逗号, 如果是其他可以指定 pd.read_csv(data, sep='\t') # 制表符分隔 tab pd.read_table(data) # read_table 默认是制表符分隔 tab pd.read_csv(data, sep='|') # 制表符分隔 tab pd.read_csv(data,sep="(?


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3